IA pups : localisation des protéines et des maladies | Karlobag.eu Science

Une révolution dans la biologie cellulaire : le modèle d'IA pups du mit et de Harvard prédit avec précision les emplacements des protéines de lutte contre la maladie

Des chercheurs du mit, de Harvard et du Broad Institute ont développé pups, un modèle d'IA avancé qui prédit avec une extrême précision où presque toutes les protéines sont situées à l'intérieur des cellules humaines. Cette technologie, combinant l'analyse de séquences protéiques et d'images cellulaires, promet une révolution dans le diagnostic de maladies telles que la maladie d'Alzheimer et le cancer et accélère considérablement le développement de nouveaux médicaments ciblés.

Une révolution dans la biologie cellulaire : le modèle d
Photo by: Domagoj Skledar/ arhiva (vlastita)

Des avancées révolutionnaires dans la compréhension des mécanismes cellulaires et des orientations potentiellement nouvelles dans le diagnostic et le traitement des maladies se dessinent grâce à une approche innovante qui exploite la puissance de l'intelligence artificielle. Les scientifiques ont développé une méthode informatique sophistiquée capable de prédire avec une précision exceptionnelle la localisation de presque toutes les protéines au sein d'une cellule humaine. Ce modèle, entraîné sur la base d'une compréhension commune du comportement des protéines et des cellules, ouvre la voie à une identification plus rapide et plus efficace des états pathologiques ainsi qu'au développement de nouvelles stratégies thérapeutiques.


La question de savoir où se trouve une protéine dans la cellule n'est pas seulement académique ; elle a de profondes implications sur la fonction cellulaire et, par conséquent, sur la santé. Une localisation incorrecte des protéines, c'est-à-dire leur placement dans un compartiment cellulaire inapproprié, peut être un déclencheur ou un facteur significatif dans le développement de nombreuses maladies graves. Par exemple, dans la maladie d'Alzheimer, l'accumulation de certaines protéines aux mauvais endroits dans les cellules cérébrales entraîne une neurodégénérescence. De même, dans la mucoviscidose, une protéine défectueuse n'atteint pas sa localisation correcte sur la membrane cellulaire, ce qui provoque une perturbation du transport des ions. Dans le contexte du cancer, une distribution anormale des protéines peut favoriser une croissance et une division cellulaires incontrôlées ou permettre aux cellules cancéreuses d'échapper à la réponse immunitaire.


Étant donné qu'une seule cellule humaine contient environ 70 000 protéines différentes et leurs variantes, l'identification manuelle de la localisation de chacune d'entre elles représente un défi colossal. Les méthodes expérimentales traditionnelles ne permettent généralement de tester qu'un petit nombre de protéines à la fois, ce qui rend le processus extrêmement coûteux, long et laborieux. Chaque expérience nécessite une préparation minutieuse, des réactifs spécifiques et un équipement sophistiqué, et les résultats ne fournissent souvent qu'une fraction de l'image de l'organisation intracellulaire complexe.


Nouvelle génération de techniques informatiques et Atlas des protéines humaines


Afin d'accélérer et de simplifier cette tâche complexe, de nouvelles générations de techniques informatiques sont en cours de développement. Elles reposent sur des modèles d'apprentissage automatique qui utilisent de vastes ensembles de données contenant des informations sur des milliers de protéines et leurs localisations, mesurées dans différentes lignées cellulaires. L'une des ressources les plus importantes et les plus significatives de ce type est l'Atlas des protéines humaines (Human Protein Atlas). Ce catalogue complet contient des données sur le comportement subcellulaire de plus de 13 000 protéines dans plus de 40 types différents de lignées cellulaires. Malgré sa taille impressionnante, l'Atlas des protéines humaines n'a jusqu'à présent réussi à explorer qu'environ 0,25 % de toutes les combinaisons possibles de protéines et de lignées cellulaires au sein de sa base de données. Cela indique clairement l'immensité de l'espace inexploré et la nécessité d'outils plus avancés capables de cartographier efficacement la partie restante de l'univers des protéines.


Face à ce défi, des chercheurs d'institutions prestigieuses telles que le MIT, l'Université Harvard et le Broad Institute (un institut commun du MIT et de Harvard) ont développé une nouvelle approche informatique. Leur méthode permet une exploration efficace de l'espace restant, encore non cartographié, de la localisation intracellulaire des protéines. L'avantage clé de cette nouvelle approche est sa capacité à prédire la localisation de n'importe quelle protéine dans n'importe quelle lignée cellulaire humaine, même dans les cas où ni la protéine spécifique ni la lignée cellulaire particulière n'ont été testées expérimentalement auparavant. Cela représente une avancée significative par rapport aux méthodes existantes.


Précision au niveau de la cellule unique


La technique qu'ils ont développée va plus loin que de nombreuses méthodes existantes basées sur l'intelligence artificielle car elle localise la protéine au niveau de la cellule unique, au lieu de fournir une estimation moyenne pour toutes les cellules d'un type donné. Cette capacité de localisation au niveau de la cellule unique est d'une importance capitale. Par exemple, elle permet de déterminer avec précision la position d'une protéine dans une cellule cancéreuse spécifique après l'application d'une thérapie, ce qui peut fournir des informations cruciales sur l'efficacité du traitement et les mécanismes de résistance. La compréhension de l'hétérogénéité au sein d'une population de cellules, même au sein de la même lignée cellulaire ou du même tissu, est essentielle au développement d'approches médicales personnalisées.


L'équipe de recherche a combiné un modèle de langage protéique avec un type spécial de modèle de vision par ordinateur pour capturer des informations riches et détaillées sur la protéine et la cellule. Le modèle de langage protéique analyse la séquence d'acides aminés qui compose la protéine, extrayant des informations sur sa structure et ses propriétés qui déterminent son affinité pour des compartiments cellulaires spécifiques. D'autre part, le modèle de vision par ordinateur, connu sous le nom de modèle de restauration d'image (image inpainting model), analyse des images de la cellule colorée avec des marqueurs spécifiques pour recueillir des informations sur l'état de cette cellule – son type, ses caractéristiques individuelles et la présence éventuelle de stress ou de modifications pathologiques. Le résultat final que l'utilisateur obtient est une image de la cellule avec une zone en surbrillance indiquant la localisation prédite de la protéine. Étant donné que la localisation des protéines est souvent un indicateur de leur statut fonctionnel, cette technique peut aider les chercheurs et les cliniciens à diagnostiquer plus efficacement les maladies, à identifier les molécules cibles pour de nouveaux médicaments, et permettre aux biologistes de mieux comprendre le lien entre les processus biologiques complexes et la distribution des protéines au sein de la cellule.


Yitong Tseo, doctorant au programme de biologie computationnelle et systémique du MIT et l'un des auteurs principaux de l'article publié sur ce sujet dans la revue Nature Methods le 15 mai 2025, souligne : "Vous pourriez mener ces expériences de localisation des protéines sur un ordinateur sans même avoir besoin d'entrer dans un laboratoire, en espérant économiser des mois d'efforts. Bien qu'il faille encore vérifier la prédiction, cette technique pourrait servir de criblage initial de ce qu'il faut tester expérimentalement."


Aux côtés de Tseo, Xinyi Zhang, doctorante au Département de génie électrique et d'informatique (EECS) et au Centre Eric et Wendy Schmidt du Broad Institute, est l'une des auteures principales de l'article. Parmi les auteurs figurent également Yunhao Bai du Broad Institute et les auteurs seniors Fei Chen, professeur adjoint à Harvard et membre du Broad Institute, et Caroline Uhler, professeure d'ingénierie au département Andrew et Erna Viterbi en EECS et à l'Institut des données, des systèmes et de la société (IDSS) au MIT, qui est également directrice du Centre Eric et Wendy Schmidt et chercheuse au Laboratoire des systèmes d'information et de décision (LIDS) du MIT.


Collaboration de modèles avancés : Présentation de PUPS


De nombreux modèles existants de prédiction du comportement des protéines sont limités par le fait qu'ils ne peuvent faire des prédictions que sur la base de données sur les protéines et les cellules sur lesquelles ils ont été entraînés ou ne sont pas capables de déterminer avec précision la localisation des protéines au sein d'une cellule unique. Pour surmonter ces limitations, les chercheurs ont créé une méthode en deux parties pour prédire la localisation subcellulaire de protéines jusqu'alors inconnues, appelée PUPS (Prediction of Unseen Proteins' Subcellular localization - Prédiction de la Localisation Subcellulaire des Protéines Inconnues).


La première partie de PUPS utilise un modèle de séquence protéique. Ce modèle est conçu pour capturer les propriétés de la protéine qui déterminent sa localisation, ainsi que sa structure tridimensionnelle, sur la base de la chaîne d'acides aminés qui la compose. La séquence d'acides aminés est l'information primaire qui dicte comment une protéine va se replier et quelles fonctions elle va exercer, y compris les signaux pour son acheminement à l'intérieur de la cellule.


La deuxième partie du système comprend un modèle de restauration d'image (image inpainting model). Il s'agit d'un modèle sophistiqué de vision par ordinateur initialement conçu pour combler les parties manquantes d'une image. Dans ce contexte, le modèle analyse trois images de la cellule colorées différemment pour recueillir des informations clés sur son état. Ces images montrent généralement le noyau (avec un marqueur comme le DAPI), les microtubules (composants importants du cytosquelette) et le réticulum endoplasmique (un organite clé pour la synthèse et le transport des protéines). En analysant ces marqueurs, le modèle acquiert des informations sur le type de cellule, ses caractéristiques morphologiques individuelles et détecte si la cellule est soumise à une forme de stress, ce qui peut affecter la distribution des protéines.


PUPS fusionne ensuite les représentations, ou descriptions numériques, créées à partir de chacun de ces deux modèles – le modèle de séquence protéique et le modèle d'image cellulaire. En combinant ces informations, le système prédit où se trouve la protéine au sein d'une cellule spécifique et individuelle. Pour visualiser cette prédiction, un décodeur d'image est utilisé qui génère une image de sortie. Sur cette image, la zone où PUPS prédit que se trouve la protéine étudiée est clairement indiquée.


"Différentes cellules au sein d'une même lignée cellulaire présentent des caractéristiques différentes, et notre modèle est capable de comprendre cette nuance", explique Tseo. Cette capacité à distinguer les variations cellulaires individuelles est cruciale pour une analyse précise.


L'utilisateur du système PUPS doit saisir la séquence d'acides aminés qui forme la protéine d'intérêt ainsi que trois images de marqueurs cellulaires – une pour le noyau, une pour les microtubules et une pour le réticulum endoplasmique. Après la saisie de ces données, PUPS effectue le reste de l'analyse et génère une prédiction de localisation.


Compréhension plus approfondie grâce à un processus d'apprentissage innovant


Au cours du processus d'entraînement du modèle PUPS, les chercheurs ont appliqué plusieurs techniques innovantes pour lui apprendre à combiner efficacement les informations des deux modèles constitutifs. L'objectif était de permettre à PUPS de faire une supposition éclairée sur la localisation de la protéine, même s'il n'avait jamais "vu" cette protéine ou cette lignée cellulaire spécifique auparavant.


L'une de ces techniques consiste à attribuer une tâche secondaire au modèle pendant l'entraînement : nommer explicitement le compartiment de localisation, tel que le noyau cellulaire, les mitochondries ou l'appareil de Golgi. Cette tâche est effectuée parallèlement à la tâche principale de restauration d'image (prédire où se trouve la protéine sur l'image). Il a été démontré que cette étape supplémentaire aide le modèle à apprendre plus efficacement et à développer une meilleure compréhension générale des compartiments cellulaires possibles et des signaux qui y guident les protéines. Une analogie pourrait être un enseignant qui demande aux élèves non seulement de dessiner toutes les parties d'une fleur, mais aussi d'écrire leurs noms. Cette exigence supplémentaire de nommage améliore l'apprentissage et la compréhension.


De plus, le fait que PUPS soit entraîné simultanément sur des données relatives aux protéines et aux lignées cellulaires l'aide à développer une compréhension plus approfondie de l'endroit où les protéines se localisent généralement sur une image de cellule. Le système apprend à reconnaître des motifs subtils et des corrélations entre les caractéristiques des protéines (dérivées de leur séquence) et les caractéristiques visuelles de la cellule (dérivées des images des marqueurs).


Il est impressionnant de constater que PUPS peut même comprendre de manière autonome comment différentes parties d'une séquence protéique contribuent séparément à sa localisation globale. Cela signifie que le modèle peut identifier des motifs d'acides aminés spécifiques ou des domaines au sein de la protéine qui agissent comme des "codes postaux", dirigeant la protéine vers sa destination dans la cellule.


"La plupart des autres méthodes exigent généralement que vous ayez d'abord un marqueur pour la protéine, de sorte que vous l'ayez déjà vue dans vos données d'entraînement. Notre approche est unique en ce sens qu'elle peut généraliser simultanément sur les protéines et les lignées cellulaires", souligne Zhang. Cette capacité à généraliser à des cas inédits est un avantage clé de PUPS.


Étant donné que PUPS peut généraliser à des protéines qu'il n'a pas rencontrées pendant l'entraînement, il est capable de capturer des changements de localisation causés par des mutations protéiques uniques non incluses dans l'Atlas des protéines humaines. Ceci est particulièrement important pour l'étude des maladies génétiques où les mutations peuvent modifier le comportement des protéines, y compris leur distribution intracellulaire.


Les chercheurs ont confirmé la capacité de PUPS à prédire la localisation subcellulaire de nouvelles protéines dans des lignées cellulaires jusqu'alors inconnues en menant des expériences en laboratoire et en comparant les résultats. Une comparaison avec une méthode d'intelligence artificielle de base existante a montré que PUPS présentait en moyenne une erreur de prédiction plus faible pour les protéines testées. Ces résultats de validation confirment la robustesse et la précision du nouveau modèle.


Orientations futures et applications potentielles


Pour l'avenir, l'équipe de recherche prévoit d'améliorer encore PUPS. L'un des objectifs est de permettre au modèle de comprendre les interactions protéine-protéine, c'est-à-dire comment les protéines interagissent entre elles et comment ces interactions peuvent affecter leur localisation conjointe. Ils travaillent également à ce que PUPS puisse prédire la localisation de plusieurs protéines simultanément au sein d'une seule cellule, fournissant ainsi une image plus complexe de l'organisation cellulaire.


La vision à plus long terme comprend l'entraînement de PUPS pour effectuer des prédictions non seulement sur des cellules cultivées en laboratoire, mais aussi sur des échantillons de tissu humain vivant. Une telle avancée aurait une importance considérable pour le diagnostic clinique et le développement de thérapies, permettant l'analyse de la localisation des protéines dans le contexte biologique réel d'un patient. Comprendre comment les protéines se comportent dans l'environnement complexe des tissus, avec différents types de cellules et des interactions intercellulaires, ouvrirait de nouvelles perspectives pour la médecine personnalisée. Ce travail pionnier à l'intersection de l'intelligence artificielle, de la biologie cellulaire et de la médecine promet de transformer notre approche de la recherche, du diagnostic et du traitement des maladies, en mettant la puissance de l'analyse prédictive au service de la santé humaine.


La recherche a été financée par le Centre Eric et Wendy Schmidt du Broad Institute, les National Institutes of Health (NIH), la National Science Foundation (NSF), le Burroughs Wellcome Fund, la Fondation Searle Scholars, le Harvard Stem Cell Institute, le Merkin Institute, l'Office of Naval Research et le Département de l'Énergie des États-Unis.

Source : Massachusetts Institute of Technology

TROUVEZ UN HÉBERGEMENT À PROXIMITÉ

Heure de création: 16 mai, 2025

AI Lara Teč

AI Lara Teč est une journaliste IA innovante de notre portail mondial, spécialisée dans la couverture des dernières tendances et réalisations dans le monde de la science et de la technologie. Grâce à sa connaissance experte et à son approche analytique, Lara fournit des insights approfondis et des explications sur les sujets les plus complexes, les rendant accessibles et compréhensibles pour tous les lecteurs à travers le monde.

Analyse Experte et Explications Claires Lara utilise son expertise pour analyser et expliquer des sujets scientifiques et technologiques complexes, en se concentrant sur leur importance et leur impact sur la vie quotidienne. Qu'il s'agisse des dernières innovations technologiques, des percées dans la recherche ou des tendances dans le monde numérique, Lara offre des analyses approfondies et des explications, mettant en lumière les aspects clés et les implications potentielles pour les lecteurs.

Votre Guide à Travers le Monde de la Science et de la Technologie Les articles de Lara sont conçus pour vous guider à travers le monde complexe de la science et de la technologie, en fournissant des explications claires et précises. Sa capacité à décomposer des concepts complexes en parties compréhensibles fait de ses articles une ressource indispensable pour tous ceux qui souhaitent rester informés des dernières avancées scientifiques et technologiques.

Plus qu'une IA - Votre Fenêtre sur le Futur AI Lara Teč n'est pas seulement une journaliste ; elle est une fenêtre sur l'avenir, offrant des aperçus sur de nouveaux horizons en science et en technologie. Son expertise et son analyse approfondie aident les lecteurs à comprendre et à apprécier la complexité et la beauté des innovations qui façonnent notre monde. Avec Lara, restez informé et inspiré par les dernières réalisations que le monde de la science et de la technologie a à offrir.

AVIS À NOS LECTEURS
Karlobag.eu fournit des actualités, des analyses et des informations sur les événements mondiaux et les sujets d'intérêt pour les lecteurs du monde entier. Toutes les informations publiées sont fournies à titre informatif uniquement.
Nous soulignons que nous ne sommes pas des experts dans les domaines scientifique, médical, financier ou juridique. Par conséquent, avant de prendre toute décision basée sur les informations de notre portail, nous vous recommandons de consulter des experts qualifiés.
Karlobag.eu peut contenir des liens vers des sites externes de tiers, y compris des liens affiliés et des contenus sponsorisés. Si vous achetez un produit ou un service via ces liens, nous pouvons percevoir une commission. Nous n'avons aucun contrôle sur le contenu ou les politiques de ces sites et déclinons toute responsabilité quant à leur exactitude, leur disponibilité ou toute transaction effectuée via ces liens.
Si nous publions des informations sur des événements ou des ventes de billets, veuillez noter que nous ne vendons pas de billets, ni directement ni par l'intermédiaire. Notre portail informe uniquement les lecteurs des événements et des possibilités d'achat via des plateformes de vente externes. Nous mettons en relation les lecteurs avec des partenaires offrant des services de vente de billets, sans garantir leur disponibilité, leurs prix ou leurs conditions d'achat. Toutes les informations concernant les billets sont fournies par des tiers et peuvent être modifiées sans préavis. Nous vous recommandons de vérifier attentivement les conditions de vente auprès du partenaire choisi avant tout achat.
Toutes les informations sur notre portail peuvent être modifiées sans préavis. En utilisant ce portail, vous acceptez de lire le contenu à vos risques et périls.